Mô hình dự đoán là gì? Các công bố khoa học về Mô hình dự đoán
Mô hình dự đoán là một công cụ hoặc phương pháp được sử dụng để dự đoán kết quả dựa trên dữ liệu đã cho. Đối với các vấn đề dự đoán, mô hình dự đoán có thể là m...
Mô hình dự đoán là một công cụ hoặc phương pháp được sử dụng để dự đoán kết quả dựa trên dữ liệu đã cho. Đối với các vấn đề dự đoán, mô hình dự đoán có thể là một thuật toán máy học hoặc một công cụ phân tích dữ liệu khác. Mô hình dự đoán sẽ được đào tạo trên dữ liệu có sẵn, học các mẫu và quy tắc từ dữ liệu đó và sau đó được sử dụng để dự đoán kết quả trên dữ liệu mới. Mỗi mô hình dự đoán có những đặc điểm riêng, và sẽ được chọn dựa trên kiểu dữ liệu, mục tiêu dự đoán và các yêu cầu khác của vấn đề cụ thể.
Mô hình dự đoán là một biểu đồ hoặc công thức mô tả mối quan hệ giữa các biến đầu vào và biến đầu ra trong một hệ thống. Nó được xây dựng dựa trên các quy tắc và mẫu được học từ dữ liệu đào tạo. Mục tiêu của mô hình dự đoán là sử dụng mô hình đã học để dự đoán trạng thái, hành vi hoặc kết quả của các biến đầu ra mới khi chỉ có thông tin về biến đầu vào.
Các mô hình dự đoán có thể thuộc vào nhóm mô hình hồi quy, phân loại hoặc gom cụm, tùy thuộc vào loại dữ liệu đầu vào và loại dự đoán cụ thể. Một số mô hình dự đoán phổ biến bao gồm:
1. Mô hình hồi quy: Dùng để dự đoán giá trị liên tục của biến đầu ra. Ví dụ, mô hình hồi quy tuyến tính sử dụng công thức đươc biểu diễn dưới dạng `y = mx + c`, trong đó `y` là biến đầu ra dự đoán, `x` là biến đầu vào và `m`, `c` là các hệ số dự đoán.
2. Mô hình phân loại: Dùng để phân loại dữ liệu vào các nhóm, ví dụ như phân loại email vào hộp thư rác hay thư thường. Các mô hình phân loại phổ biến bao gồm cây quyết định, máy vector hỗ trợ (SVM) và học sâu.
3. Mô hình gom cụm: Dùng để phân loại dữ liệu thành các nhóm tương tự nhau dựa trên các đặc trưng công việc của chúng. Các mô hình gom cụm phổ biến bao gồm K-Means, K-Medoids và DBSCAN.
Để xây dựng một mô hình dự đoán, phương pháp đào tạo được sử dụng để tìm các quy tắc và mẫu từ dữ liệu huấn luyện. Dữ liệu huấn luyện thường được chia thành tập dữ liệu huấn luyện và tập dữ liệu kiểm tra để đánh giá hiệu suất mô hình. Mô hình dự đoán được đào tạo bằng cách tối ưu hóa hàm mất mát, tối thiểu hóa sai số giữa đầu ra dự đoán và giá trị thực tế của dữ liệu.
Danh sách công bố khoa học về chủ đề "mô hình dự đoán":
Protein là yếu tố thiết yếu của sự sống, và việc hiểu cấu trúc của chúng có thể tạo điều kiện thuận lợi cho việc hiểu cơ chế hoạt động của chúng. Thông qua một nỗ lực thử nghiệm khổng lồ1–4, cấu trúc của khoảng 100.000 protein độc nhất đã được xác định5, nhưng điều này chỉ đại diện cho một phần nhỏ trong hàng tỷ chuỗi protein đã biết6,7. Phạm vi bao phủ cấu trúc đang bị thắt nút bởi thời gian từ vài tháng đến vài năm cần thiết để xác định cấu trúc của một protein đơn lẻ. Các phương pháp tính toán chính xác là cần thiết để giải quyết vấn đề này và cho phép tin học cấu trúc lớn. Việc dự đoán cấu trúc ba chiều mà một protein sẽ chấp nhận chỉ dựa trên chuỗi axit amin của nó - thành phần dự đoán cấu trúc của 'vấn đề gấp nếp protein'8 - đã là một vấn đề nghiên cứu mở quan trọng trong hơn 50 năm9. Dù đã có những tiến bộ gần đây10–14, các phương pháp hiện tại vẫn chưa đạt đến độ chính xác nguyên tử, đặc biệt khi không có cấu trúc tương đồng nào được biết đến. Tại đây, chúng tôi cung cấp phương pháp tính toán đầu tiên có khả năng dự đoán cấu trúc protein với độ chính xác nguyên tử ngay cả trong trường hợp không có cấu trúc tương tự nào được biết. Chúng tôi đã xác nhận một phiên bản thiết kế hoàn toàn mới của mô hình dựa trên mạng neuron, AlphaFold, trong cuộc thi Đánh giá Cấu trúc Protein Phê bình lần thứ 14 (CASP14)15, cho thấy độ chính xác có thể cạnh tranh với các cấu trúc thử nghiệm trong phần lớn các trường hợp và vượt trội hơn các phương pháp khác đáng kể. Cơ sở của phiên bản mới nhất của AlphaFold là cách tiếp cận học máy mới kết hợp kiến thức vật lý và sinh học về cấu trúc protein, tận dụng các sắp xếp nhiều chuỗi, vào thiết kế của thuật toán học sâu.
Một phương trình mới và tương đối đơn giản cho đường cong áp suất chứa nước trong đất, θ(
Một mô hình phân tích đơn giản được đề xuất để dự đoán các đường cong độ dẫn nước chưa bão hòa bằng cách sử dụng đường cong độ ẩm - đầu mao dẫn và giá trị đo được của độ dẫn nước ở trạng thái bão hòa. Mô hình này tương tự như mô hình của Childs và Collis-George (1950) nhưng sử dụng một giả định được điều chỉnh liên quan đến độ dẫn nước của chuỗi lỗ để tính đến tác động của phần lỗ lớn hơn. Một phương pháp tính toán được phát triển để xác định độ ẩm còn lại và để ngoại suy đường cong độ ẩm - đầu mao dẫn như đã đo trong một khoảng hạn chế. Mô hình được đề xuất được so sánh với các mô hình thực tiễn hiện có của Averjanov (1950), Wyllie và Gardner (1958), cũng như Millington và Quirk (1961) dựa trên dữ liệu đo được của 45 loại đất khác nhau. Dường như mô hình mới có sự phù hợp tốt hơn với các quan sát.
Sử dụng phương pháp khả năng Bayesian, chúng tôi ước lượng một mô hình cân bằng tổng quát ngẫu nhiên động cho nền kinh tế Hoa Kỳ bằng cách sử dụng bảy chuỗi thời gian vĩ mô. Mô hình này tích hợp nhiều loại ma sát thực và danh nghĩa cùng với bảy loại sốc cấu trúc. Chúng tôi chỉ ra rằng mô hình này có khả năng cạnh tranh với các mô hình Tự hồi quy Vector Bayesian trong việc dự đoán ngoài mẫu. Chúng tôi điều tra tầm quan trọng thực nghiệm tương đối của các ma sát khác nhau. Cuối cùng, sử dụng mô hình đã ước lượng, chúng tôi giải quyết một số vấn đề then chốt trong phân tích chu kỳ kinh doanh: Nguồn gốc của các biến động chu kỳ kinh doanh là gì? Mô hình có thể giải thích sự tương quan giữa sản lượng và lạm phát không? Tác động của năng suất đến số giờ làm việc là gì? Nguồn gốc của "Sự điều chỉnh lớn" là gì? (JEL D58, E23, E31, E32)
Bài báo này mô tả một phương pháp hiệu chuẩn và ước lượng không chắc chắn cho các mô hình phân phối dựa trên các biện pháp khả năng tổng quát. Quy trình GLUE hoạt động với nhiều bộ giá trị tham số và cho phép rằng, trong các giới hạn của một cấu trúc mô hình nhất định và các lỗi trong điều kiện biên và quan sát thực địa, các bộ giá trị khác nhau có thể có khả năng tương đương nhau như các mô phỏng của một lưu vực. Các quy trình đưa các loại quan sát khác nhau vào hiệu chuẩn; cập nhật Bayes về các giá trị khả năng và đánh giá giá trị của các quan sát bổ sung vào quy trình hiệu chuẩn được mô tả. Quy trình này đòi hỏi tính toán nặng nhưng đã được triển khai trên một máy tính xử lý song song tại chỗ. Phương pháp này được minh họa bằng một ứng dụng của Mô hình Phân phối Viện Thủy văn đối với dữ liệu từ lưu vực thử nghiệm Gwy ở Plynlimon, miền Trung xứ Wales.
Các ước tính trước đây về tương tác giữa đất và khí quyển (tác động của độ ẩm trong đất đối với lượng mưa) đã bị hạn chế bởi sự thiếu hụt dữ liệu quan sát cũng như sự phụ thuộc vào mô hình trong các ước tính tính toán. Để khắc phục hạn chế thứ hai này, một tá nhóm nghiên cứu khí hậu gần đây đã thực hiện cùng một thí nghiệm số học được kiểm soát chặt chẽ như một phần của một dự án so sánh hợp tác. Điều này cho phép ước lượng đa mô hình về các khu vực trên Trái đất nơi mà lượng mưa bị ảnh hưởng bởi các bất thường về độ ẩm trong đất trong mùa hè ở Bắc bán cầu. Những lợi ích tiềm năng của ước lượng này có thể bao gồm việc cải thiện dự đoán lượng mưa theo mùa.
Một mô hình được trình bày để tính toán tỷ lệ bay hơi hàng ngày từ bề mặt cây trồng. Mô hình này áp dụng cho tình trạng tán cây của cây hàng trong đó nguồn cung nước từ đất cho rễ cây không bị hạn chế và cây trồng chưa ở giai đoạn trưởng thành hoặc thoái hóa cao. Tỷ lệ bay hơi từ cây trồng được tính bằng cách cộng tổng các thành phần từ bề mặt đất và bề mặt cây (mỗi thành phần trong số này yêu cầu dữ liệu hàng ngày cho chỉ số diện tích lá), bay hơi tiềm năng, lượng mưa và bức xạ ròng trên tán cây. Quá trình bay hơi từ bề mặt đất
Phương pháp tối thiểu bậc (PLS) đã được giới thiệu như một phương pháp "nguyên nhân-dự đoán" trong mô hình phương trình cấu trúc (SEM), nhằm vượt qua sự phân chia rõ rệt giữa giải thích và dự đoán. Tuy nhiên, trong khi các nhà nghiên cứu sử dụng PLS-SEM thường nhấn mạnh tính chất dự đoán của phân tích, việc đánh giá mô hình lại phụ thuộc hoàn toàn vào các chỉ số được thiết kế để đánh giá sức mạnh giải thích của mô hình đường dẫn. Nghiên cứu gần đây đã đề xuất PLSpredict, một quy trình dựa trên mẫu giữu lại tạo ra các dự đoán ở mức trường hợp về một yếu tố hoặc một khái niệm. Bài báo này cung cấp hướng dẫn để áp dụng PLSpredict và giải thích các lựa chọn chính mà các nhà nghiên cứu cần thực hiện khi sử dụng quy trình này.
Các tác giả thảo luận về sự cần thiết của các đánh giá mô hình hướng đến dự đoán trong PLS-SEM và giải thích khái niệm cũng như tiến bộ thêm phương pháp PLSpredict. Ngoài ra, họ minh họa việc sử dụng quy trình PLSpredict với một mô hình tiếp thị du lịch và đưa ra những khuyến nghị về cách kết quả nên được diễn giải. Trong khi trọng tâm của bài báo là quy trình PLSpredict, mục tiêu chung là khuyến khích đánh giá thường xuyên theo định hướng dự đoán trong các phân tích PLS-SEM.
Bài báo thúc đẩy PLSpredict và cung cấp hướng dẫn về cách sử dụng phương pháp đánh giá mô hình theo định hướng dự đoán này. Các nhà nghiên cứu nên thường xuyên xem xét việc đánh giá sức mạnh dự đoán của các mô hình đường dẫn PLS của họ. PLSpredict là một cách tiếp cận hữu ích và đơn giản để đánh giá khả năng dự đoán ngoài mẫu của các mô hình đường dẫn PLS mà các nhà nghiên cứu có thể áp dụng trong các nghiên cứu của họ.
Nghiên cứu trong tương lai cần tìm cách mở rộng khả năng của PLSpredict, ví dụ như phát triển thêm các tiêu chuẩn so sánh kết quả PLS-SEM và so sánh thực nghiệm giữa các phương pháp nguyên nhân sớm nhất và phương pháp nguyên nhân trực tiếp trong việc đánh giá sức mạnh dự đoán.
Bài báo này cung cấp hướng dẫn rõ ràng cho việc sử dụng PLSpredict, mà các nhà nghiên cứu và thực hành nên thường xuyên áp dụng như một phần của các phân tích PLS-SEM của họ.
Nghiên cứu này củng cố việc sử dụng PLSpredict. Nó cung cấp cho các nhà nghiên cứu tiếp thị và thực hành kiến thức cần thiết để đánh giá, báo cáo và giải thích chính xác các kết quả PLS-SEM. Nhờ đó, nghiên cứu này góp phần bảo vệ tính nghiêm ngặt của các nghiên cứu tiếp thị sử dụng PLS-SEM.
Hồi quy logistic nhị phân là một trong những phương pháp thống kê được áp dụng thường xuyên nhất để phát triển các mô hình dự đoán lâm sàng. Các nhà phát triển của những mô hình này thường dựa vào tiêu chí Sự Kiện Trên Biến (Events Per Variable - EPV), đặc biệt là EPV ≥10, để xác định kích thước mẫu tối thiểu cần thiết và số lượng biến dự đoán ứng viên tối đa có thể được kiểm tra. Chúng tôi trình bày một nghiên cứu mô phỏng rộng rãi trong đó chúng tôi đã nghiên cứu ảnh hưởng của EPV, tỷ lệ sự kiện, số lượng biến dự đoán ứng viên, tương quan và phân phối của các biến dự đoán ứng viên, diện tích dưới đường cong ROC và hiệu ứng của biến dự đoán đối với hiệu suất dự đoán ngoài mẫu của các mô hình dự đoán. Hiệu suất ngoài mẫu (chuẩn hóa, phân biệt và sai số dự đoán xác suất) của các mô hình dự đoán đã phát triển được nghiên cứu trước và sau khi thu nhỏ hồi quy và chọn biến. Kết quả cho thấy rằng EPV không có mối quan hệ mạnh với các chỉ số hiệu suất dự đoán và không phải là tiêu chí phù hợp cho các nghiên cứu phát triển mô hình dự đoán (nhị phân). Chúng tôi chỉ ra rằng hiệu suất dự đoán ngoài mẫu có thể được xấp xỉ tốt hơn bằng cách xem xét số lượng biến dự đoán, kích thước mẫu tổng thể và tỷ lệ sự kiện. Chúng tôi đề xuất rằng việc phát triển các tiêu chí kích thước mẫu mới cho các mô hình dự đoán nên dựa trên ba tham số này và cung cấp các gợi ý để cải thiện việc xác định kích thước mẫu.
Mục tiêu chính của nghiên cứu này là đánh giá và so sánh hiệu suất của các thuật toán học máy (ML) khác nhau, cụ thể là Mạng Nơron Nhân Tạo (ANN), Máy Học Tăng Cường (ELM) và thuật toán Cây Tăng Cường (Boosted), khi xem xét ảnh hưởng của các tỷ lệ đào tạo đối với kiểm tra trong việc dự đoán độ bền cắt của đất, một trong những tính chất kỹ thuật địa chất quan trọng nhất trong thiết kế và xây dựng công trình. Để thực hiện điều này, một cơ sở dữ liệu gồm 538 mẫu đất thu thập từ dự án nhà máy điện Long Phú 1, Việt Nam, đã được sử dụng để tạo ra các bộ dữ liệu cho quá trình mô hình hóa. Các tỷ lệ khác nhau (tức là 10/90, 20/80, 30/70, 40/60, 50/50, 60/40, 70/30, 80/20, và 90/10) đã được sử dụng để chia bộ dữ liệu thành bộ dữ liệu đào tạo và kiểm tra nhằm đánh giá hiệu suất của các mô hình. Các chỉ số thống kê phổ biến, chẳng hạn như Lỗi Bình Phương Trung Bình (RMSE), Lỗi Tuyệt Đối Trung Bình (MAE) và Hệ Số Tương Quan (R), đã được sử dụng để đánh giá khả năng dự báo của các mô hình dưới các tỷ lệ đào tạo và kiểm tra khác nhau. Ngoài ra, mô phỏng Monte Carlo đã được thực hiện đồng thời để đánh giá hiệu suất của các mô hình đề xuất, có tính đến ảnh hưởng của lấy mẫu ngẫu nhiên. Kết quả cho thấy mặc dù cả ba mô hình ML đều hoạt động tốt, nhưng ANN là mô hình chính xác nhất và ổn định nhất về mặt thống kê sau 1000 lần mô phỏng Monte Carlo (R Trung Bình = 0.9348) so với các mô hình khác như Boosted (R Trung Bình = 0.9192) và ELM (R Trung Bình = 0.8703). Điều tra về hiệu suất của các mô hình cho thấy khả năng dự báo của các mô hình ML bị ảnh hưởng lớn bởi các tỷ lệ đào tạo/kiểm tra, trong đó tỷ lệ 70/30 thể hiện hiệu suất tốt nhất của các mô hình. Một cách ngắn gọn, kết quả được trình bày ở đây thể hiện một cách thức hiệu quả trong việc lựa chọn các tỷ lệ dữ liệu phù hợp và mô hình ML tốt nhất để dự đoán chính xác độ bền cắt của đất, điều này sẽ hữu ích trong các giai đoạn thiết kế và kỹ thuật của các dự án xây dựng.
- 1
- 2
- 3
- 4
- 5
- 6
- 10